iT邦幫忙

2023 iThome 鐵人賽

DAY 23
0

SARSA( State-Action-Reward-State-Action )

SARSA 名字說明了這個學習的更新方式
就是根據當前狀態、選擇的動作、獲得的獎勵、下一個狀態以及下一個動作
SARSA 的目標是學習一個策略,以最大化長期回報
跟 Q 學習不同的是,SARSA 使用五元組(st, at, rt, st+1, at+1)來更新Q 值
s 、 a 、 r 分別為狀態、動作和即時獎勵, t 和 t+1 分別表示當前和下一步

SARSA的學習過程

  1. 初始化 Q 值表
    初始化 Q( s, a ),對所有狀態 s 和動作 a 設定初始值
  2. 設置學習率、折扣因子和探索率
    https://chart.googleapis.com/chart?cht=tx&chl=%24%24Q(s_%7Bt%2B1%7D%2C%20a_%7Bt%2B1%7D)%20%5Cleftarrow%20Q(s_t%2C%20a_t)%20%2B%20%5Calpha%20%5Br_t%20%2B%20%5Cgamma%20Q(s_%7Bt%2B1%7D%2C%20a_%7Bt%2B1%7D)%20-%20Q(s_%7Bt%2B1%7D%2C%20a_%7Bt%7D)%24%24
  • 學習率( Alpha )
    學習率代表了新獲得的資訊對於取代舊資訊的影響程度
    當 Alpha 為 0 ,代理不會學習學習新資訊
    當 Alpha 為 1 ,代理只考慮最新的資訊

  • 折扣因子( Gamma )
    折扣因子影響未來獎勵的重要性
    當 Gamma 為 0 ,代理只關注當前瞬間的獎勵
    當 Gamma 接近 1 ,代理更加注重長期回報,就算需要等待未來較高的獎勵
    如果 Gamma 達到或超過 1 ,則 Q 值可能會出現不穩定的情況(發散)

  • 初始條件(Q( s0 , a0 ))
    SARSA 是一種反覆運算的演算法,因此在首次進行更新之前,預設了一個起始情況
    這種低值(甚至是負無限大)的初始情況通常被稱為「樂觀的起始條件」,它鼓勵代理進行探索
    不論代理選擇採取哪種行動,更新規則都會導致該行動的 Q 值高於其他可能的選擇,來提高了這些行動被選擇的可能性

  1. 重複下列步驟直到收斂
  • 初始化起始狀態S
  • 根據 epsilon-greedy 策略,選擇起始動作 A
  • 進入循環,直到達到終止狀態:
    根據當前狀態 S 和動作 A 執行動作,觀察獎勵 R 和下一個狀態 S'
    根據 epsilon-greedy 策略,選擇下一個動作 A'
    更新Q值:
    Q(S, A) = Q(S, A) + alpha * (R + gamma * Q(S', A') - Q(S, A))
    將狀態更新為下一個狀態:S = S'
    將動作更新為下一個動作:A = A'

跟 Q-learning 比較

  1. Q-learning 具有比 SARSA 更高的每樣本方差,可能會因此產生收斂當使用,尤其是在 Q-learning 訓練神經網絡時
  2. SARSA 在接近收斂時,允許對探索性的行動進行懲罰,使 SARSA 算法更加保守,如果存在接近最佳路徑的大量負面獎勵,Q-learning 傾向於觸發這些獎勵來更快地探索,而 SARSA 傾向於避免危險的最佳路徑並在學習過程中逐步改進
  3. Q-learning 直接學習最優策略,而 SARSA 在探索時學習到近乎最優的策略
  4. Q-learning 在一些情況下可以更快地收斂,因為它不會對探索性的行動進行懲罰,而是直接忽略

參考資料

https://www.wpgdadatong.com/blog/detail/42832
https://cloud.tencent.com/developer/article/2309442
https://www.jiqizhixin.com/graph/technologies/284cb9a8-bdf4-40e7-bd06-1c6b83a2e0e8
https://paddlepedia.readthedocs.io/en/latest/tutorials/reinforcement_learning/Sarsa.html


上一篇
強化學習~ Q 學習
下一篇
深度強化學習
系列文
機器學習新手行,相信你也行!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言